#Reinforcement Learning

2个月前

很多人嘲笑谷歌，说谷歌在AI时代掉队了。但其实，谷歌是目前为止最领先的AI公司，而且，很可能领先幅度会越来越大。Deepmind最新的Agent，AlphaEvolve，已经非常接近具备自我迭代，持续进步的能力了。这是谷歌过去这么多年在Reinforcement Learning方面的积累从量变到质变的结果，其他公司，也就是马斯克的xAI+Tesla有可能可以追一追，其他公司离得就更远了。接下来，谷歌在技术上大概率会继续领先，唯一的悬念是谷歌如何把这种技术上的领先变现了。详情请见视频。

#谷歌 #AI时代 #DeepMind #AlphaEvolve #Reinforcement Learning #创新技术 #马斯克 #XAI #TESLA

马东锡 NLP 🇸🇪

3个月前

「DeepSeek, Reasoning」论文 DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via Reinforcement Learning for Subgoal Decomposition 用"sorry"做占位符，sorry，除了硬核，无法可说。 DeepSeek这篇在reasoning的追求上，到了一个让普通老百姓不能理解的程度。 DeepSeek 的一系列推理模型，已经用test time scaling的方法，证明它有做奥赛数学题的reasoning能力。但这不够，这篇论文不要已经work的非正式性自然语言推理过程，一定要formal theorem proving，要用数学正式表达的形式化推理，。怎么评价呢，“挺卷的反正就” 。方法上，DeepSeek把“非正式分解 + 递归求解 + 强化学习”整合为一条pipeline： - DeepSeek-V3 先用自然语言写出解题思路，同时把每一步翻译成 Lean 子目标（以 sorry 结尾）。 - 一个 7B 参数的 prover 模型递归地填补这些 sorry，得到完整 Lean 证明。 - 拼接后的“CoT + 正式证明”作为冷启动数据，再用 RL 微调，显式奖励"证明结构与分解保持一致"。看完论文，一头雾水，为啥用sorry做占字符？问了一下专门做数学研究的朋友，才知道，微软的Lean是专门用来做交互式地构造严谨证明，sorry就是Lean的本身对数学推导的占字符。😱 读完其他优秀的论文，我总会感叹exciting，amazing。这篇只有，无法可说，sorry....

#DeepSeek #reasoning #Formal Mathematical Reasoning #Reinforcement Learning #Subgoal Decomposition

马东锡 NLP 🇸🇪

3个月前

「Agent, RAG, Reasoning」论文 ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning ReSearch，充满了 ReAct 的影子。它教会模型“何时求助于世界”；但局限在于，ReSearch 只能依赖一种工具。作者提出了一种创新的框架，名为 ReSearch，旨在通过强化学习（RL）训练 LLM 在推理过程中有效地反复利用 search API 完成任务。从任务形式上，它解决的是增强LLM+ RAG的问题，但并不同于基于 embedding 的单轮相似度检索方法。它关注的是多次 query、反复调用 search API 来完成信息查询任务。并不同于基于embedding去单次算相似度的方法，它解决的是多次query，反复调用search API完成外部信息查询的问题。而反复调用 API，涉及推理能力去决策调用的时机，以及生成调用的参数 —— 这是一个典型的 agent + function calling 场景。 ReSearch目标将这种search的reasoning能力通过RL学到。具体来说，ReSearch 采用了专门为搜索功能设计的训练模版： <think>...</think>：表示模型的思考过程； <search>...</search>：表示模型发起的搜索查询； <result>...</result>：表示搜索引擎返回的结果； <answer>...</answer>：表示模型给出的最终答案。特别地，ReSearch 的奖励函数不是仅仅基于答案对错，而是采用 rule-based 的组合机制：基于答案的 F1 相似度 + 输出格式是否符合模板，以此优化 policy，微调语言模型参数。此时不免再次提及 ReAct：ReSearch 充满了 ReAct 的循环影子——： Reasoning：模型的思考过程； Action：模型发起的调用； Observation：工具返回的反馈。 ReAct 是神作，它以 verbal reasoning （人话）的方式，将原本充满数学公式的 RL 概念转化为语言链式推理，让 LLM 学会如何使用工具，优雅而简洁。一些思考： ReSearch 以及前几天分享的 ReTool 是非常类似的工作，它们都通过强化学习微调，将使用工具的能力内化于语言模型中，增强工具调用的鲁棒性。但它们的局限性也非常明显：ReSearch 和 ReTool 都只支持一种工具 —— search API 和 code interpreter。而 ReAct，通过 Prompt Engineering，就可以灵活调用多个外部工具。 ReSearch 和 ReTool 的 RL 框架是为“单工具、二选一调度”设计的。如果强行扩展为多工具，训练信号将更加稀疏、credit assignment 更加困难，其策略网络、reward assignment、以及 rollout 表达能力都需要重新设计。我们距离真正原生具备多轮、多工具能力的通用 Agent，还有一段距离。

#agent #RAG #reasoning #Research #React #强化学习 #大模型 #Reinforcement Learning #工具使用 #创新框架

马东锡 NLP 🇸🇪

4个月前

「Agent, Reasoning」论文： Generative Verifiers: Reward Modeling as Next-Token Prediction 拟人化的 reward model，超越机械的打分，一个非常聪明的方法。之前的分享中提到过，在 Large Reasoning Model 时代，RL 的方法几乎都是 Reinforcement Learning with Human Feedback 的延展。只不过，后来的方法在思路上都是把 human feedback 替换成了 reward model。传统上，reward model 仅仅是一个打分模型，而这篇论文则把 reward model 从简单的打分模型，转变为 next-token 输出, 即超越机械生硬的打分，增添了文字，推理，或者rule。这大大提升了 reward model 的灵活性，因为可以把所有 prompting engineering 的技巧，比如 CoT、对打分的 reasoning 过程等都结合进来并输出，从来辅助打分。从思维方式上来看，这篇论文更倾向于将 RM 作为一个“人”来使用，非常聪明。可见，RM 上的创新将会是Large Reasoning Model重点的方法创新主题，拭目以待。

#Generative Verifiers #Reward Modeling #Next-Token Prediction #Large Reasoning Model #Reinforcement Learning

马东锡 NLP 🇸🇪

4个月前

LRM论文选读：START: Self-taught Reasoner with Tools 这篇文章介绍了一种构建特定任务、私域Large Reasoning Model的有效方法，主要方法是微调，而且没有使用reinforcement learning，但却有非常类似reinforcement learning with human feedback的特征。关键词有二： Test-time scaling Rejection sampling fine-tuning（反思微调）

#Large Reasoning Model #微调 #Reinforcement Learning #human feedback #论文选读 #特定任务 #私域

马东锡 NLP 🇸🇪

4个月前

Large Reasoning Model时代, 几乎等于Reinforcement Learning + LLM的时代。但RL专业性非常强，去参加ML的会议时，专门做RL的研究员都现场拿着笔纸推算数学公式，掌握起来学习难度较高。分享一本RL的入门教材，从RL基础MDP，PPO，直到跟LLM结合，如RLHF，都有讲解，深入浅出。 Reinforcement Learning: An Overview：

#强化学习 #大型语言模型 #RLHF #PPO #MDP #Reinforcement Learning #LLM